查看原文
其他

资金不足、人手短缺的arXiv,快跟不上科学的发展速度了

科研圈 科研圈 2022-04-14

2022 年 1 月 3 日,预印本服务器 arXiv.org 发布了自成立以来的第 200 万篇论文。但在这个服务器的维护者和使用者眼中,它就像一台老爷车,身上的问题与它的成就一样耀眼。


图片来源:Pixabay


来源 Scientific American

作者 Daniel Garisto

翻译 阿金

编辑 魏潇


一切始于 1989 年。从一封包含十几位弦理论专家的电子邮件,到如今收藏了超过 200 万篇论文的网站,arXiv 成为了一个汇聚物理学家、天文学家、计算机科学家、数学家和其他学者的中心。2022 年 1 月 3 日,一篇题为《仿射迭代和翘曲效应:多种方法论》Affine Iterations and Wrapping Effect: Various Approaches)的数值分析论文让预印本服务器 arXiv.org 跨越了新的里程碑。(作为参考,著名的亚历山大图书馆收藏的手稿达到了数十万份。)


“我们提供方法,让作者们迅速自由地交流自己的科研成果。” 斯坦因·西古德松(Steinn Sigurdsson)如此说道,他是美国宾夕法尼亚州立大学(Pennsylvania State University)的天体物理学教授,也是 arXiv 的科学总监。不同于传统学术期刊,arXiv(发音与英文 archive 相同,因为 X 代表希腊字母 chi)让科学家在接受同行评审之前就能分享自己的研究成果。


论文作者向传统期刊提交手稿后,通常要等上一年半载甚至更久才会发表,而上传 arXiv 一天之内就能看到文章。作者们经常会将手稿上传至 arXiv,然后在同行评审期刊上发表最终版本。但渐渐地,论文就只出现在 arXiv 上了。除了传统手稿,arXiv 还包含白皮书、历史综述,甚至“不要脸”的愚人节假论文。


“这就像我们领域的支柱。”欧洲核子研究中心(CERN)的科学信息服务主任亚历克斯·科尔斯(Alex Kohls)如此说道。CERN 位于瑞士日内瓦附近,是全球首屈一指的粒子物理研究组织。“它不仅是物理学家和计算机科学家的工具,而且还对整个学术交流进程产生影响。”例如,生命科学领域受到 arXiv 启发,也建立了自己的预印本服务器,如 bioRxiv 和 medRxiv,它们已被证明在新冠疫情大流行期间为加速生物医学研究发挥了宝贵作用。


服务器经历了爆炸式发展。2008 年,也就是 arXiv 上线的 17 年之后,它收录的论文数量达到了 50 万篇。到 2014 年底,这个数字翻了一番,达到 100 万篇。7 年后,arXiv 论文库总数再次翻番,但它仍然在跌跌撞撞地摸索自己的角色:是更接近于选择性地发表学术论文的期刊,还是无差别收集各种论文的在线文库?


面对这一困惑,一些研究人员关注到 arXiv 的审核规则,这些规则在他们看来缺乏透明度,导致论文被不公平地拒稿或者错误分类。与此同时,arXiv 也在努力改善论文审核人员的多元性,目前这些人大都是美国研究机构的男性科学家。


物理学者间流传着一个共识:“如果论文不在 arXiv上,那就等于不存在。”换言之,对于相当一部分学科来说,arXiv 已成为科学进程本身不可或缺的一环。而对于使用它的研究者来说,arXiv 是日常工作流的一部分:他们早上喝咖啡时可能会同时浏览上面的最新文章,中午提交一篇自己的论文,晚上下载阅读材料。这一重要作用证明了 arXiv 的成功,但也表明这个论文数据库的问题不仅仅属于它自身,也属于广大学者。



灾难性成功


在 arXiv 出现之前,物理学家的传统操作是邮寄预印本论文,他们将尚待同行评审的手稿复印件寄给全球各地的实验室和大学图书馆,供渴求最新科研成果的读者阅读。时间流逝,预印本数量已经变得极其巨大,纸质邮寄变成了电子邮件。随后,到了 1991 年,如今在美国康奈尔大学(Cornell University)的保罗·金斯帕格(Paul Ginsparg)将自己的同事、物理学家乔安妮·科恩(Joanne Cohn)的电子邮件列表自动化成了一个任何人都可以提交并登录的论文库,效果立竿见影。


“几年之内,几乎所有粒子物理学的论文都会先提交到 arXiv 上。”科尔斯说。得益于其令人印象深刻的快速发布,这一操作后来在物理、数学和计算机科学领域盛行起来,arXiv 很快取代了传统期刊或者会议,成为查找最新科研成果的主要场地。


“上周五一架望远镜看到了新东西。这周一相关论文就出现了。到了周二,就有论文反驳周一发表的文章。” 西古德松说,“真是又有趣,又刺激。”


拉努·金(Lanu Kim)是韩国科学技术院(Korea Advanced Institute of Science and Technology)的学者,她领导的一项研究发现,arXiv 上高引用论文的作者越来越不会在传统期刊上发表同样的论文。“如果在 arXiv 上已经获得足够的关注,他们可能不想重走一遍期刊论文发表的麻烦流程。”金解释道。她的研究还发现,传统期刊对于引用量仍有重要影响,但它们的角色更像是研究论文的“监管者”,而不是“传播者”。


尽管获得了巨大的成功,但 arXiv 一直在与稳定性和资源作斗争。服务器历经动荡,在康奈尔校园内的位置几度变迁。目前,资金仅能支持少数员工帮助志愿审核员每天处理 1200 份投稿。“我们就像一辆老爷车,全身锈迹斑斑,发动机活塞也磨损殆尽。” 西古德松说,“我们人手不够,资金也不足,已经持续好几年了。”


同样地,作为一家机构而发展的 arXiv,其成长速度远跟不上依赖它的科学界的发展速度。“很长时间以来,arXiv 只由少数几个人运营。”科尔斯说。即使现在,约有 200 名志愿审核员管理着约 150 个分类学科,他们平均每人每天处理 30 篇论文,这一因素导致了延误以及其他问题。



一切尽在审核


论文作者提交论文后,文章就进入常规的审核员评估流程。如果审核员没有看出哪儿有问题,那么通常第二天论文就会发布在网站上。但审核员会频繁干预,令发布时间延后几天甚至几周,他们还会给论文重新分类,甚至直接拒稿。


“他们正在采取行动,似乎要和预印本服务器本来该发挥的作用对着干。”印度国立卡纳塔克邦技术学院(National Institute of Technology Karnataka)的物理学家迪帕克·维德(Deepak Vaid)说道。他指出自己所说的是不一致的审核与透明度的缺失。


延后发布可能看似微不足道,但是对于争分夺秒首发科学发现或者大胆新假设的科学家来说,哪怕几天也可能很关键。arXiv 的“一般(general)”类别是一个包罗各种研究,但质量可疑的分组,审核员为了更有效地审阅他们认为没有满足更精细分类标准的投稿,有权将提交的论文划分至这一组别。最后,他们还能直接拒稿。


“我们必须制定一个基准。”西古德松说,他想要说的其实是 arXiv 有时候会收到一些看上去是伪科学的论文投稿,例如一些声称“已经证明爱因斯坦错了”的文章,或者已经构建好“万物理论”的文章。为了防止数量过多的论文挤爆服务器,arXiv 要求投稿者必须“经过认证”。最开始,认证基于学者所在的学术机构,但现在可以选择“背书”系统:任何人,只要有一名经过认证的用户做担保,并且该担保人在同一“研究领域”撰写过一系列论文,那么这个人就可以投稿。“有了这一机制,我们磕磕碰碰地前进,因为有总比没有好。”西古德松说道。


维德认同有必要通过背书或者其他验证系统来清除伪科学。但他也说,因为预印本服务器不是期刊,arXiv 和审核员可以放松标准,不那么下重手拒稿。


西古德松举了一个反例:“如果信噪比变得太糟糕的话,那就毫无用处。这样,你还不如去阅读 YouTube 的评论。”在 arXiv,大约 6% 的投稿会被搁置,还有约 2% 会被拒绝接受。像《自然》Nature和《科学》Science这样的顶尖期刊,稿件接收率则少于 10%(arXiv 在质量控制方面的努力还激励了竞争性预印本服务器的创建,例如 viXra.org,他们以最低的审核标准接受投稿。毫不意外,主流学者认为这样的论文库效用很低。)


尽管审核不是同行评审,arXiv 的审核员却拥有和期刊编辑同样的拒稿权力。“他们执行我所谓的‘一眼评审制度’:快速翻阅一遍,不假装全面理解,也不假装使用极低的标准。” 金斯帕格说,“他们的审核倾向永远朝着‘接收’的方向,因为我们期待科学会自我纠正。”


对一些充满希望的作者来说,号称低接收门槛的 arXiv 做出任何拒稿决定,都让他们难以接受。2017 年,维德的一篇文章被拒稿了,理由是其引言“使用了一种高度戏剧化的歪曲口吻”。而当他要求平台给出拒稿说明,希望借此重写引言时,一位 arXiv 代表回复说:“审核员不是裁判,他们不会提供拒稿决定的细节。”


因为审核员没有时间展开全面的同行评审工作来审核每一篇投稿,arXiv 的规定也不是为了详细说明其拒稿原因。“我们不想陷入争论。”西古德松说。因此,作者能够针对拒稿或者分类错误发起申诉,但过程是冗长的:作者经历了和同行评审一样的麻烦过程,换回的结果是把文章发布在预印本服务器上。


2021 年 8 月,arXiv 审核员拒绝了中国知名科学家陆朝阳和潘建伟的一篇论文,他们两人分别在量子研究领域贡献了许多个“第一”。尽管陆朝阳表达了自己对 arXiv 拒稿的困惑和沮丧,但两位科学家没有申诉,而是将文章发布在 viXra 和其他服务器上。罗伯托·卡萨迪奥(Roberto Casadio)是意大利博洛尼亚大学(University of Bologna)的理论物理学家,他独立评估了这篇论文,也不明白拒稿原因。“论文探讨的主题完全属于 arXiv 广义相对论和量子宇宙学范围内。”卡萨迪奥说道,“无论结论对错,重要的是 arXiv 的读者们能够,也应该有机会独立阅读文章。”



寻找代表


arXiv 面对的一些问题源头可能来自其审核员构成的失衡。在 200 名审核员中,女性只占了 13%,正如前文所述,大部分人是美国研究机构的男性科学家。许多人在自己的领域耕耘了几十年,他们开始自己学术生涯的时候,数学、物理和其他物理类学科还没有像现在这样存在那么多分支。


尽管 arXiv 已经成为全球顶级科研论文库,但是负责接收稿件或者拒稿的审核员绝大部分来自美国和欧洲,这样的身份失衡给学术公平性带来挑战。图片来源:Amanda Montañez; Source: arXiv.org


西古德松承认,“要是 arXiv 审核员把自己当作终身研究小组,反思一下其中的人口统计情况,那就好了。”但是,招募新的团队成员也很难,因为审核工作吃力不讨好,没有什么职业回报,而且缺点众多。尤其是女性审核员,她们常常成为侮辱性电子邮件狂轰滥炸的目标。


除了性别与国籍的明显失衡,维德还指出 arXiv 存在一些主观观念上的阴暗面。当需要统一量子场论和引力时,弦理论往往比圈量子引力(loop quantum gravity)等其他方法更受欢迎。而审核员和期刊编辑一样掌握着部分权力,能决定哪些类型的理论可以被发布。虽然维德没有整理出确凿证据来证实自己的怀疑,但他认为与弦理论支持者相比,圈量子引力支持者更常被拒稿。


那么让审核员更加多元化是否能解决批评者的抱怨呢?目前还不清楚。国际科学界的成员有很多共同点,但审核员多元化的问题和过分偏爱或者不当拒稿的问题或许存在关联。


6 年前,瑞士日内瓦大学(University of Geneva)的量子物理学家尼古拉斯·吉辛(Nicolas Gisin)声称 2014 年他们的文章被 arXiv 拒稿后,他的学生受到了来自该网站的限制 [2015 年,该论文通过了同行评审,经修改发表在《物理快报 A》上Physics Letters A]。对吉辛来说,这一遭遇让他产生了疑问:arXiv 到底属于谁?是运营网站的员工和志愿者?还是用研究成果支持它的全球科学家?


金斯帕格说,arXiv 的初衷曾是“归属于”更广阔的物理学界,但他又指出,尽管服务器最初为物理学家而建,但如今计算机科学的论文占据了大部分投稿。


在法律角度上,arXiv 以康奈尔大学为核心,资金上受到美国西蒙斯基金会(Simons Foundation)和一家国际学术机构联盟的支持,但科尔斯说:“我们的学者觉得 arXiv 属于整个科学界。”


如果确实如此,arXiv 属于更广泛的科学社区,学界也依赖它,向里面填满了 200 万篇论文,那这对于 arXiv 的未来有什么意义呢?


在维德看来,答案相当明显:“任何‘一切照旧’的做法注定失败。”没有问责制,就是零,就完蛋,他这样说道。他相信,arXiv 需要更加透明化自己的标准,解释拒稿原因。西古德松则认为,在 arXiv 建立更完整全面的同行评审制度不太可能会成功。但他也说自己打算在未来几年将审核员数量增加到至少 300 人,这样每个学科分类都最少也能有两个人负责。


金斯帕格也承认,arXiv 的独特地位表明了它对学界的责任。“然而,让全球多个领域的研究输出集中在单个门户网站,无疑会产生原则性问题。”他说,“arXiv 的行动和任何无意识的偏倚都应该受到持续监督。


如果照目前的步伐发展,十年之内 arXiv 收录的论文数量还能再翻番。下一批 200 万篇论文会带来什么发现,我们无从得知,但 arXiv 在科学界的主角地位似乎不太可能会让给别人。


CERN 最近在翻新图书馆,在这个过程中一项调查询问了 CERN 的科学家他们想要什么:新的办公用具?更美味的咖啡?“而他们的回答是:‘放个大屏幕,编个脚本,每天自动显示 arXiv 又有什么新投稿。’”科尔斯说,“这可能会成为 CERN 图书馆的核心。”


原文链接:

https://www.scientificamerican.com/article/arxiv-org-reaches-a-milestone-and-a-reckoning/


本文来自微信公众号“科研圈”。如需转载,请在“科研圈”后台回复“转载”,或通过公众号菜单与我们取得联系。相关内容禁止用于营销宣传。


▽精彩回顾▽


点击在看,分享给更多的小伙伴 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存